Explotación sin engaño: La dirección de características de la Tríada Oscura revela circuitos antisociales separables en modelos de lenguaje.
Explotación sin engaño: circuitos antisociales en modelos de lenguaje. Descubre cómo operan estos circuitos sin engaño explícito y su impacto ético en la IA.